检索结果

Select

1. 融合局部语义特征的学者细粒度信息提取方法

田悦霖, 黄瑞章, 任丽娜

《计算机应用》唯一官方网站 2023, 43 (9): 2707-2714. DOI: 10.11772/j.issn.1001-9081.2022091407

摘要（177）

HTML （12）

PDF （1296KB）（97）

从学者主页中提取的学者细粒度信息（如学者研究方向、教育经历等）在大规模专业人才库的创建等方面具有非常重要的应用价值。针对现有学者细粒度信息提取方法无法有效利用上下文语义联系的问题，提出一种融合局部语义特征的学者信息提取方法，利用局部范围文本的语义联系对学者主页进行细粒度信息抽取。首先，通过全词掩码中文预训练模型RoBERTa-wwm-ext学习通用语义表征；之后将通用语义表征中的目标句表征向量与局部相邻文本表征向量共同输入卷积神经网络（CNN）实现局部语义融合，从而获得更高维度的目标句表征向量；最终将目标句表征向量从高维度空间映射到低维度标签空间实现学者主页细粒度信息的抽取。实验结果表明，使用此融合局部语义特征的方法进行学者细粒度信息提取的宏平均F1值达到93.43%，与未融合局部语义的RoBERTa-wwm-ext-TextCNN方法相比提高了8.60个百分点，验证了所提方法在学者细粒度信息提取任务上的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

2. 面向热点新闻事件的层次化故事脉络生成方法

刘东, 林川, 任丽娜, 黄瑞章

《计算机应用》唯一官方网站 2023, 43 (8): 2376-2381. DOI: 10.11772/j.issn.1001-9081.2022091377

摘要（431）

HTML （20）

PDF （1333KB）（278）

热点新闻事件的发展十分丰富，各个阶段的发展都有其独特的叙述，并且随着事件的发展呈现出层次化故事脉络演化的趋势。针对现有故事脉络生成方法存在脉络可解释性不佳以及缺乏层次性的问题，提出一种面向热点新闻事件的层次化故事脉络生成方法（HSGM）。首先，采用改进热词算法来挑选主干种子事件，以构建主干脉络；其次，挑选分支事件热词以增强分支可解释性；然后，在分支脉络中采用融合热词关联度与动态时间惩罚的脉络连贯度挑选策略来增强父子事件的连接，以构建层次化热词，进而构建多层次故事脉络；此外，考虑到热点新闻事件存在潜伏期，在脉络构建过程加入孵化池以解决因热度不够所产生的初始事件被忽略问题。在两个自建真实数据集上进行实验的结果表明，在事件追踪过程中，与分别基于singlePass和基于k-means的方法相比，HSGM的F值分别高出了4.51%、6.41%和20.71%、13.01%；而在脉络构建过程中，与Story Forest和Story Graph相比，HSGM在两个自建数据集上的准确性、可理解性、完整性方面表现良好。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

3. 深度动态文本聚类模型DDDC

陆辉, 黄瑞章, 薛菁菁, 任丽娜, 林川

《计算机应用》唯一官方网站 2023, 43 (8): 2370-2375. DOI: 10.11772/j.issn.1001-9081.2022091354

摘要（264）

HTML （11）

PDF （1962KB）（119）

互联网的飞速发展使得新闻数据呈爆炸增长的趋势。如何从海量新闻数据中获取当前热门事件的主题演化过程成为文本分析领域研究的热点。然而，常用的传统动态聚类模型处理大规模数据集时灵活性差且效率低下，现有的深度文本聚类模型则缺乏一种通用的方法捕捉时间序列数据的主题演化过程。针对以上问题，设计了一种深度动态文本聚类（DDDC）模型。该模型以现有的深度变分推断算法为基础，可以在不同时间片上捕捉融合了前置时间片内容的主题分布，并通过聚类从这些分布中获取事件主题的演化过程。在真实新闻数据集上的实验结果表明，在不同的数据集上，与动态主题模型（DTM）、变分深度嵌入（VaDE）等算法相比，DDDC模型在各时间片的聚类精度均至少提升了4个百分点，且归一化互信息（NMI）至少提高了3个百分点，验证了DDDC模型的有效性。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

4. 基于多层语义融合的结构化深度文本聚类模型

马胜位, 黄瑞章, 任丽娜, 林川

《计算机应用》唯一官方网站 2023, 43 (8): 2364-2369. DOI: 10.11772/j.issn.1001-9081.2022091356

摘要（290）

HTML （15）

PDF （1642KB）（188）

近年来，由于图神经网络（GNN）的结构信息在机器学习中的优势，人们开始将GNN结合进深度文本聚类中。当前结合GNN的深度文本聚类算法在文本语义信息融合时忽略了解码器在语义补足上的重要作用，这导致在数据生成部分出现语义信息的缺失。针对以上问题，提出了一种基于多层语义融合的结构化深度文本聚类模型（SDCMS）。该模型利用GNN将结构信息集成到解码器中，通过逐层语义补充增强了文本数据的表示，并通过三重自监督机制获得更好的网络参数。在Citeseer、Acm、Reutuers、Dblp、Abstract 这5个真实数据集上进行实验的结果表明，与目前最优的注意力驱动的图形聚类网络（AGCN）模型相比，SDCMS在准确率、归一化互信息（NMI）和平均兰德指数（ARI）上分别最多提升了5.853%、9.922%和8.142%。

图表 | 参考文献 | 相关文章 | 多维度评价

Select

5. 基于事件表示和对比学习的深度事件聚类方法

蒋小霞黄瑞章白瑞娜任丽娜陈艳平

《计算机应用》唯一官方网站 DOI: 10.11772/j.issn.1001-9081.2023060851
预出版日期: 2023-08-23